期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于因子分解机用于安全探索的Q表初始化方法
曾柏森, 钟勇, 牛宪华
《计算机应用》唯一官方网站    2022, 42 (1): 209-214.   DOI: 10.11772/j.issn.1001-9081.2021020239
摘要444)   HTML11)    PDF (873KB)(98)    收藏

针对强化学习的大多数探索/利用策略在探索过程中忽略智能体随机选择动作带来的风险的问题,提出一种基于因子分解机(FM)用于安全探索的Q表初始化方法。首先,引入Q表中已探索的Q值作为先验知识;然后,利用FM建立先验知识中状态和行动间潜在的交互作用的模型;最后,基于该模型预测Q表中的未知Q值,从而进一步引导智能体探索。在OpenAI Gym的网格强化学习环境Cliffwalk中进行的A/B测试里,基于所提方法的Boltzmann和置信区间上界(UCB)探索/利用策略的不良探索幕数分别下降了68.12%和89.98%。实验结果表明,所提方法提高了传统策略的探索安全性,同时加快了收敛。

图表 | 参考文献 | 相关文章 | 多维度评价